Introduction
In this paper thye propose two novel and general approaches for generating sense-specific word embeddings that are grounded in an ontology.
但是通用的词向量只为一个词分配一个词向量,无法解决解决一词多义的问题。
虽然Yu and Dredze (2014), Faruqui (2014)的方法都能利用知识库训练出更好的词向量,但是没有解决一词多义的问题。大多数解决一词多义的方法都关注如果使用上下文来找出词语的真正意思。而本文则整合进了ontology
。
这篇论文将提出两种方法将ontology
和distributional sources of information
起来。
- 让已经得到证明的方法能够在
ontology
的基础上产生词语意思的向量表示。属于post-process
的方法。 - 适用于使用最大化
likelihood
的学习词向量的方法。
#统一化的符号、分布式语义#
$W={w_1,..., w_n}$是词语的集合,$W_s={s_{ij}|\forall w_i \in W, i \leq j \eq k_i}$是词义的集合,$k_i$是$w_i$的词义数量。
用$\Omega = (T_{\Omega}, E_{\Omega})$, $T_{\Omega}$是词的意思的集合,$E_{\Omega}$是图的边。
Retrofitting Vecotors to an Ontology
第一个技术假设我们已经有一个原始的词向量了$\hat{U}$。希望得到词义的词向量$V={v_{ij}|\forall s_{ij} \in W_s}$。词的词向量和它的词义词向量是连在一起的。
从优化的角度出发,选择使用向量之间的欧几里德距离而不是余弦相似度。
$C(v) = argmin_V \sum_{i-ij} \alpha ||\hat{u}_i - v_{ij}||^2 + \sum_{ij-i\prime j\prime} \beta_r ||v_{ij} - v_{i\primej\prime}||^2$
表示的是词义的词向量的相似度的约束和具有关系的词义之间的相似度的约束。
Adapting Predictive Models with Latent Variables and Structured Regularizers
第二个技术则是在已存在的概率模型中引入隐变量来表示词义。
$C(\theta) = argmax_{\theta} \sum_{(w_i, c_i) \in D} log(\sum_{s_{ij}}p(w_i, c_i, s_{ij};\theta)) + log p_{\Omega}(\theta)$
第一项是在原始的概率模型上引入了$s_{ij}$这个隐变量。第二项则是基于
ontology
的一个正则项。